Google 推出完胜国际象棋和将棋的 AlphaZero

2017-12-12 映美杯中国国际象棋甲级联赛

Google 旗下人工智慧公司 DeepMind 又丢出一支重磅炸弹！其新研发的AlphaZero 在用了强劲的计算资源（5,000 个一代 TPU 和 64 个二代 TPU ）之后，用不到 24 小时的时间自我对弈强化学习，接连击败了三个世界冠军级的程序 (国际象棋、将棋、围棋)。

AlphaZero 在经过 8 小时训练后首先完爆第一个打败人类的围棋 AI——李世乭版 AlphaGo；经过 4 小时的训练，打败了最强国际象棋 AI——Stockfish；经过 2 小时训练打败最强将棋 AI——Elmo。

AlphaZero自我对弈的训练时间

AlphaZero与围棋AI、国际象棋AI以及将棋AI对弈比分

对弈国际象棋程序Stockfish：28胜，72平；

对弈将棋程序 Elmo：90胜，2平，8负；

对弈围棋程序AlphaGo Zero：60胜，40负。

为什么AlphaZero能这么强大？

知名 AI 部落格作者,来自加州大学洛杉矶分校的 Adit Deshpande 解读了 AlphaZero 胜利背后的力量。他指出，机器学习领域分为三大类，即监督学习、无监督学习和强化学习。强化学习可以在不同的情景或者环境下学习采取不同的行动，以此来获得最佳效果。而 AlphaZero 就用到了强化学习。

AlphaZero 与其前辈 AlphaGo 相比有哪些突破？

据专家分析，在专业技术上，有以下三点突破。

第一，AlphaGo 只会考虑胜负两种结果，而 AlphaZero 还考虑到了平局。

第二，AlphaGo 会通过改变棋盘方向进行强化学习，但是因为国际象棋和将棋的棋盘与围棋不同，所以 AlphaZero 不依赖此方法。因此，AlphaZero 更通用。

第三，AlphaGo Zero 会不断选择胜率最好的版本替换，而 AlphaZero 则只更新一个神经网络。

专家也表示，AlphaZero 有突破也有局限：

局限之一是，他们研发 AlphaZero 是为了将其从围棋领域扩展到其它棋类，增强通用性，但是在方法上没有太多亮点。

局限之二在于，AlphaZero 在实际应用过程中还会不断遇到新问题。这源于强化学习应用于现实并不容易。比如，强化学习可以应用于研究新药品，新药品很多内部结构需要搜寻，之后制药，还要检测这种药品是否有效，这个过程很缓慢并且相当昂贵。

局限之三在于，AlphaZero 所运用的强劲的计算资源——5,000 个一代 TPU 和 64 个二代 TPU 价格相当高，曾有国际风投机构的投资人表示，这么贵的晶片，我也就是看看......

虽然有一定局限，但是科学家们对 AI 的探索从未停下脚步。DeepMind 就是先行者之一，好像登山一样，人们终有一天会登顶。

相关阅读

计算机国际象棋漫谈